〈系统与设计〉

# 基于 FPGA 的夏克-哈特曼探测器实时波前处理机

刘召庆<sup>1</sup>,李  $力^{1,2}$ ,董  $w^2$ ,金伟其<sup>2</sup>

(1. 西安应用光学研究所,陕西西安 710065; 2. 北京理工大学 光电学院,北京 100081)

**摘要:**夏克-哈特曼波前传感器是目前自适应光学系统中应用最为广泛的实时波前探测器。本文针对 具有高分辨、高帧速、大规模子孔径数的夏克-哈特曼传感器,根据其波前处理计算量和实时性的要 求,提出了一种基于现场可编程门阵列(FPGA, field-programmable gate array)的实时波前处理机 结构及波前斜率计算方法。该方法利用核心处理模块重复利用的方式完成子孔径内光斑质心的计算, 并通过 USB3.0 将处理后的质心数据实时传输给 PC 机。处理机以一片 XILINX 公司 Kintex7-XC7K325T的FPGA作为处理芯片进行了设计,结果表明:该算法可对560帧/s的1020×1020 图像(580 MB/s 数据量),56×56 子孔径哈特曼传感器,进行低延时实时光斑质心计算,提高了系统的波前处理速度和整个自适应光学系统的控制速度。

关键词:夏克-哈特曼探测器;实时波前处理机;FPGA

中图分类号: TN219 文献标识码: A 文章编号: 1001-8891(2021)08-0717-06

## Shack-Hartman Detector Real-time Wavefront Processor Based on FPGA

LIU Zhaoqing<sup>1</sup>, LI Li<sup>1,2</sup>, DONG Bing<sup>2</sup>, JIN Weiqi<sup>2</sup> (1. Xi'an Institute of Applied Optics, Xi'an 710065, China; 2. School of Optoelectronics, Beijing Institute of Technology, Beijing 100081, China)

**Abstract:** The Shack-Hartman wavefront sensor is the most widely used real-time wavefront detector in adaptive optics systems. In this study, a Shack-Hartmann sensor with high resolution, high frame rate, and a large-scale sub-aperture number is proposed. Based on the requirements of wavefront processing calculations and real-time performance, a field-programmable gate array (FPGA) is also proposed. The real-time wavefront processor structure and wavefront slope calculation method are investigated. The system employed the core processing module to reuse the method to calculate the centroid of the spot in the sub-aperture and transmitted the processed centroid data to the PC in real time through USB 3.0. The processor was designed with a XILINX Kintex7-325T FPGA processing chip. The results demonstrate that the algorithm can perform low-latency, real-time operations on 1020×1020 images and 56×56 sub-aperture Hartmann sensors at 560 frames per second. The spot centroid calculation increased the wavefront processing speed of the system and the control speed of the entire adaptive optics system. **Key words:** Shack-Hartmann sensor, real-time wavefront detector, FPGA

## 0 引言

自适应光学的基本思想是在光学系统中引入一 个表面形状可变的光学元件(波前校正器)和一个 波前误差传感器,用波前传感器测量出不断变化的 波前误差,根据测量结果由控制系统控制波前校正 器对波前误差进行校正。如果这一过程足够快,就 可以用不断变化的波前校正量来校正不断变化的动 态波前误差。

夏克-哈特曼波前传感器是目前自适应光学系 统中应用最为广泛的实时波前探测器。自适应光学 系统将夏克-哈特曼波前传感器所测到的波前畸变

收稿日期: 2019-12-12; 修订日期: 2021-04-26.

作者简介:刘召庆(1979-),男,研究员,主要研究方向为光电系统总体技术。E-mail: 12134171@qq.com。

通信作者: 李力(1982-), 男, 讲师, 主要研究方向为数字图像处理。E-mail: lili@bit.edu.cn。

**基金项目:**国家自然基金(11874087)。

| 第43卷 第8期 | 红外技术                | Vol.43 No. | .8 |
|----------|---------------------|------------|----|
| 2021年8月  | Infrared Technology | Aug. 202   | 21 |

信息转化成校正器的控制信号,以实现自适应光学 系统的闭环控制。用于补偿大气湍流引入像差的天 文自适应光学系统的空间分辨力和时间分辨力应分 别与大气相干长度和时间常数相匹配。优秀观测站 址的大气相干长度 ro和时间常数分别约十几厘米和 几毫秒,随着望远镜口径的增大,要求自适应光学 系统有更多的子孔径数。以直径 8 m 的望远镜为例, 若 r<sub>0</sub>取 15 cm,则要求夏克-哈特曼传感器在直径方 向上至少有53个子孔径。由此给波前处理系统带来 的问题是计算量大、实时性要求高。为提高自适应 光学系统的控制带宽,必须提高自适应光学系统的 波前采样频率和波前校正速度。在系统采样频率一 定的情况下,波前处理系统的计算延时会直接影响 系统的控制带宽。在当前图像帧结束的情况下,越 早给出波前校正量越能更好地补偿波前像差,实现 准实时的波前校正。

2002年中科院光电所研制的 2900 Hz、61 单元 的波前处理机<sup>[1]</sup>共用 17 片 DSP, 计算延时为 340 µs; 2011年中科院电子技术研究所研制的基于 FPGA 的 22×22子孔径波前斜率处理器<sup>[2]</sup>完成一帧所有子孔 径斜率计算的延迟时间为 0.33 µs; 2015 年中科院电 子技术研究所研制的基于 PC 机的 949 个子孔径的 系统<sup>[3]</sup>进行 2000 Hz 的处理,处理延迟低于 240 us; 2016年中科院长春光机所研制的基于 GPU 的液晶 自适应光学系统的波前处理<sup>[4]</sup>斜率延时为18 µs,其 相机像素为 240×240, 帧率 2000 帧/s, 40×40 个 子孔径。以上夏克-哈特曼传感器所产生的图像数据 大致在每秒 100 M 像素数左右,现代的 FPGA 都可 以在单周期内完成波前斜率计算,因此只要 FPGA 运行在 100 MHz 的时钟频率下都可以进行实时处 理。面对自适应光学对传感器分辨率、帧率要求的 不断提高,夏克-哈特曼传感器所产生的图像数据大 致在 500 M/s 以上的像素数, 传感器为达到传输带 宽的要求,都采用多通道(8~10通道)同时传输 的方式, FPGA 难以运行在如此高的时钟频率。

本文针对具有高分辨率(1020×1020),高帧速 (560 帧/s),大规模子孔径数(56×56 单元)的夏 克-哈特曼传感器,提出一种基于现场可编程门阵列 (field-programmable gate array, FPGA)的实时波前 处理机,在有效降低硬件资源的前提下,可在当前 子孔径数据进入 FPGA 后延迟 10 行完成当前子孔 径波前处理运算,提高了系统的波前处理速度。

#### 1 夏克-哈特曼波前传感器原理

夏克-哈特曼波前传感器由微透镜阵列和探测器组成,每个微透镜对应探测器上的一个子探测区。

当以参考波前(近似平面波)入射到微透镜阵列时, 在探测区域形成近似等间距排列的光斑阵列,此时 记下光斑质心位置作为参考。当以畸变波前入射时, 每个子透镜对应的光斑质心位置相对参考光斑可能 产生 *X* 和 *Y* 两个方向的移动,移动量即对应于畸变 波前在子孔径内的平均斜率。获得畸变波前在子孔 径内的平均斜率后,通过波前重构算法(模式法或 区域法)即可获得波前相位。

图 1 为夏克-哈特曼波前传感器的工作原理。光 波场被阵列透镜分解成许多小孔径光斑,这些小孔 径光斑汇聚到夏克-哈特曼探测器焦平面上。假定不 同的子孔径的光成像在探测器靶面的不同位置上, 任意两个子孔径所产生的邻近像点没有重叠,这样 每个子孔径在像平面上都对应的一块专用的成像面 积。进入阵列透镜的光束在探测器上形成一阵列衍 射光斑。



图 1 夏克-哈特曼波前传感器结构

Fig.1 Structure of Shaker-Hartman sensor 根据光斑质心的定义可写出离散采样情况下光 斑质心的计算公式为:

$$x_{c} = \sum_{i,j}^{L,M} x_{i} I_{i,j} / \sum_{i,j}^{L,M} I_{i,j}$$

$$y_{c} = \sum_{i,j}^{L,M} y_{i} I_{i,j} / \sum_{i,j}^{L,M} I_{i,j}$$
(1)

式中:  $x_i$ 和  $y_i$ 分别为探测器各子孔径位置坐标;  $I_{i,j}$ 为第(i,j)个探测器像元灰度值。

在每一个子孔径内进行光斑质心计算,可以得 到参考波前质心(X<sub>c0</sub>, Y<sub>c0</sub>)和畸变波前质心(X<sub>c</sub>,Y<sub>c</sub>)。 波前斜率 g<sub>x</sub>和 g<sub>y</sub>定义为信标光波在 x 和 y 方向的偏 导数在该子孔径上的平均,波前斜率和光斑质心变 化量满足如下关系:

$$g_x = \frac{(x_c - x_0) \times p}{f}$$
,  $g_y = \frac{(y_c - y_0) \times p}{f}$  (2)

式中: p 为探测器像元尺寸; f 为子透镜焦距。

综上所述,夏克-哈特曼波前传感器波前处理的 核心为子孔径内光斑质心的计算。

## 2 基于 FPGA 的实时波前处理机结构

基于 Kintex7-XC7K325T 的 FPGA 实时波前处 理机组成如图 2 所示, 夏克-哈特曼传感器将实时采 集的图像数据发送给以 FPGA 为核心的自适应光学 波前处理机, FPGA 处理完后将数据发送给上位机, 同时上位机可以发送控制指令对处理机的参数进行 控制。



图 2 处理机系统组成

Fig.2 Composition of processor system

夏克-哈特曼传感器的 FPGA 处理硬件结构如 图 3 所示。采用具有高帧速、大面阵 CMOS 探测器 的 EoSens CL 型相机,在 Camera Link Extended-Full 传输模式下以 1020×1020 分辨率可实现 560 帧/s 的帧率。为了传输高达 4.4 Gbit/s 的数据,需要 3 对 Camera Link 数据链,因此处理机数据接收端采 用 3 片 DS90CR288MTD 芯片将 Camera Link 数据 转成 LVCMOS 信号传输给 FPGA。

本夏克-哈特曼传感器微透镜整列数为56×56, 每个子孔径在 x 和 y 方向上用 8 bit 表示整数坐标位 置,16 bit 表示小数坐标位置,则每秒至少需要传输 560×56×56×2×24=84295680 bit 数据,大大超过 了通信常用的异步串行通信(RS232/422)的传输极 限。因此在传输波前质心数据时,本文采用 Cypress 公司 CYUSB2014-BZXI 与上位机间进行 USB3.0 数 据传输(USB3.0 的最大速率 5 Gbit),为了降低 USB 数据传输开发复杂性,本文将 USB3.0 传输设置为 单向传输,上位机与波前处理质心计算系统的控制 由 RS422 完成。

## 3 基于 FPGA 的子孔径光斑质心计算

夏克-哈特曼传感器采用的 EoSens CL 相机工 作在 1020×1020 分辨率, 帧频为 560 帧/s, 采用 Camera Link Extended-Full 模式传输,像素时钟为 75 MHz。每时钟同时输出 10 个像素,每个像素为 8 bit, 共 80 bit,行有效周期为 102 个像素时钟。其 行时序如图 4 所示(图中每一个方块代表一个像素, 方块中的数字表示像素的行方向坐标,*T<sub>x</sub>* 代表第 *x* 个时钟周期)。

如果实时将并行输入的 10 个像素转成串行的 单个像素进行处理 FPGA 需要 750 MHz 的处理时 钟,大大超过了 FPGA 能够达到的最高时钟,因此 本文设计了一个行缓冲将高速多像素并行输入的图 像数据变成低速像素为单位的串行的数据(如图 5 所示),FPGA 程序设计中将每一行数据按 10 个像 素(80 bit)75 MHz 时钟频率写入两个 FIFO (64 bit 位宽和 16 bit 位宽两个 FIFO 组成一个 80 bit 位宽的 FIFO)中,再以1个像素(8 bit)频率 *F*<sub>FPGA</sub>(75 MHz~ 200 MHz,FPGA 一般时钟频率)从 FIFO 中读出, FIFO 深度为 128。每行数据的处理时间为 1020 个 *F*<sub>FPGA</sub> 时钟。

每一个质心计算核心模块如图 6 所示,由一个 如图 6 的行缓冲 FIFO 和两个乘法累加器分别进行 子孔径内 *x* 和 *y* 方向的乘法运算及累加运算组成, 质心计算核心模块将 FIFO 读出点在对应子孔径参 数进行运算。该运算为两周期流水运算。质心计算 核心模块将计算后该行对应在子孔径的 3 个乘积累 计结果进行输出。图中 YPos 为当前质心计算核心 模块处理行在整个图像中的行位置, XPos 为当前处



Fig.4 Pixel output timing of EoSens CMOS detector









Fig.6 Module of centroid computing

理像素在整个图像中的列位置,Sum 输出为质心计 算核心模块处理完当前行后输出的行像素值总和, IntgX 为每一个子块在行方向的乘法累加值,IntgY 为每一个子块在列方向的乘法累加值。

质心计算核心模块工作在相机的像素时钟频率 下(75 MHz),相机行有效时间为*T*<sub>Iv</sub>时,质心计算 核心模块需要10*T*<sub>Iv</sub>的时间来处理一行的数据,因此 一个质心计算核心模块是显然不够的,但是如果每 一行都有一个质心计算核心模块会浪费大量的 FPGA资源,甚至导致 FPGA由于资源不够而无法 完成布局布线。为了满足功能的需要又不造成 FPGA资源的浪费,如图7所示,本文采用核心模 块复用的质心计算方法,设计了共10个质心计算核 心模块,通过核心模块选择器分时复用使用这10 个质心计算核心模块,实现质心计算核心模块的复 用,减少 FPGA资源的使用。

最终 FPGA 资源使用情况如图 8 所示, FPGA 资源使用中最重要的几个指标 LUT, FF, BRAM 的 使用量都在 30%以下。

使用 QuestaSim 对图 9 实际采集的夏克-哈特曼 传感器成像图进行了仿真,仿真时序如图 10 所示, 每一行子孔径质心位置结果可以在当前子孔径所有 行均输入后延时 10 行时间输出,采用的 EoSens CL 型相机工作在 1020×1020 分辨率 560 帧时,行周期 小于 1/(560×1020)=1.75 µs,因此本系统的计算输 出延迟小于 17.5µs。同时将 QuestaSim 仿真结果与 Matlab 计算的结果进行了对比,结果一致。



Fig.7 Centroid computing core module reuse



(a) FPGA 资源使用率柱状图(a) FPGA resource utilization histogram

|          |             |           | Graph   lable |
|----------|-------------|-----------|---------------|
| Resource | Utilization | Available | Utilization % |
| LUT      | 41036       | 203800    | 20.14         |
| LUTRAM   | 873         | 64000     | 1.36          |
| FF       | 45413       | 407600    | 11.14         |
| BRAM     | 126.50      | 445       | 28.43         |
| DSP      | 10          | 840       | 1.19          |
| ю        | 199         | 500       | 39.80         |
| BUFG     | 10          | 32        | 31.25         |
| MMCM     | 2           | 10        | 20.00         |

(b) FPGA 资源使用率资源表

(b) FPGA resource usage resource table

- 图 8 FPGA 使用资源情况
- Fig.8 Usage of FPGA resources

表1将本文所采用的系统和方法与所查到文献 中其他处理系统与方法进行了比较,比较主要包括 子孔径的数量、传感器的数据量和处理延时,本文 所采用的系统和方法在子孔径数量最多,数据量最 大的情况下,也能够将延时控制得最小。







图 10 时序仿真结果 Fig.10 Timing simulation results 表 1 处理能力比较 Table 1 Comparison of processing power

|                                                                                         | Drococcor     | Number of     | The data volume | Processing |
|-----------------------------------------------------------------------------------------|---------------|---------------|-----------------|------------|
|                                                                                         | Processor     | sub-apertures | of the sensor   | delay      |
| 2002 Institute of Optics and Electronics, Chinese<br>Academy of Sciences <sup>[1]</sup> | 17DSP         | 61            | 7.8MB/s         | 340 µs     |
| 2011 Institute of Optics and Electronics, Chinese Academy of Sciences <sup>[5]</sup>    | FPGA          | 177           | No data         | 338 µs     |
| 2014 Technische Universität Ilmenau <sup>[6]</sup>                                      | FPGA          | 120           | 43.3MB/s        | 1050 µs    |
| 2015 Institute of Optics and Electronics, Chinese Academy of Sciences <sup>[2]</sup>    | Computer      | 949           | 88.2MB/s        | 163µs      |
| 2016 Changchun Institute of Optics and Mechanics <sup>[4]</sup>                         | GK104 GPU+CPU | 1600          | 115.2MB/s       | 18µs       |
| 2018 Changchun Institute of Optics and Mechanics <sup>[7]</sup>                         | FPGA          | 349           | 113.5MB/s       | 198µs      |
| 2018 Indian Institute of Astrophysics <sup>[8]</sup>                                    | FPGA          | 2500          | No data         | 24-26µs    |
| System and method of this paper                                                         | FPGA          | 3136          | 580MB/s         | 17.5 µs    |

### 4 实验系统

实验系统光路如图 11 所示。光纤耦合输出激光 光源(635 nm)经准直后通过分束镜 1 垂直入射到 变形镜上。变形镜用于产生畸变波前。畸变波前在 分束镜 2 处分为两路,一路用于夏克-哈特曼传感器 进行波前探测,一路用于检测远场光斑的变化。由 于变形镜的通光口径一般大于哈特曼传感器的探测 区域尺寸,实验系统采用透镜组 L3 和 L4 将变形镜 出射的光进行缩束,焦距之比等于变形镜口径与哈 特曼探测区域直径之比。夏克-哈特曼传感器获得的 光斑阵列图像经 Cameralink 接口发送给 FPGA 波前 处理机进行实时质心计算,质心计算结果由上位机 进行波前重构后得到畸变波前分布。



Fig.11 Experimental light path

#### 5 结论

目前夏克-哈特曼传感器所用的高分辨率、高 帧率探测器大多采用多通道并行传输的方式才能 满足自适应光学所要求的高分辨率、高帧频的需求, 本文提出的一种基于 FPGA 的夏克-哈特曼波前处 理机,采用核心模块复用的质心计算方法,兼顾了 处理效率和 FPGA 资源的平衡,可以实时处理 1020×1020 分辨率、560 帧/s 图像的成像器件和 56×56 子孔径数微透镜整列组成的夏克-哈特曼传 感器,数据输出延迟小于 17.5 μs(10 个行周期), 而且 FPGA 资源占用率不到 30%,由此推算用该 FPGA 至少可以处理图像分辨率或图像帧率增加 1 倍的哈特曼传感器。

#### 参考文献:

周璐春, 王春鸿, 李梅, 等. 基于 FPGA 技术的波前斜率处理方法
 [J]. 光电工程, 2002, 29(3): 28-31.

ZHOU Luchun, WANG Chunhong, LI Mei, et al. A wavefront slope processing method based on FPGA technique[J]. *Opto-Electronic Engineering*, 2002, **29**(3): 28-31

- [2] 樊志华, 王春鸿, 姜文汉. 基于累加器的哈特曼-夏克波前斜率处 理器[J]. 光学精密工程, 2011, 19(3): 501-507.
  FAN Zhihua, WANG Chunhong, JIANG Wenhan. Accumulator -based wavefront slope processor for Shack-Hartmann sensors[J]. Optics and Precision Engineering, 2011, 19(3): 501-507.
- [3] 陈善球,刘超,许冰,等.通用自适应光学波前实时处理机的设计
   [J].中国激光, 2015, 42(12): 1212001

CHEN Shanqiu, LIU Chao, XU Bing, et al. Design of generic adaptive optics wave-front real-time processor[J]. *Chinese Journal of Lasers*, 2015, **42**(12): 1212001

[4] 李大禹. 基于多 GPU 的液晶自适应光学波前处理器[J]. 液晶与显示, 2016, 31(5): 491-496.

LI Dayu. Liquid crystal adaptive optics wavefront processor based on multi-GPU[J]. *Chinese Journal of Liquid Crystals and Displays*, 2016, **3**1(5): 491-496.

- [5] 贾建禄, 王建立, 赵金宇. 基于 FPGA 的自适应光学系统波前处理 机[J]. 光学精密工程, 2011, 19(8): 1716-1722.
  JIA Jianlu, WANG Jianli, ZHAO Jinyu, et al. Adaptive optical wave-front processor based on FPGA[J]. Optics and Precision
- [6] Mauch S, Reger J. Real-time spot detection and ordering for a Shack-Hartmann wavefront sensor with a low-cost FPGA[J]. *IEEE Transactions on Instrumentation and Measurement*, 2014, 63(10): 2379-2386.

Engineering, 2011, 19(8): 1716-1722.

 [7] 王建立. 349 单元自适应光学波前处理器[J]. 光学精密工程, 2018, 26(5): 1007-1013.

WANG Jianli. Three hundred and forty-nine unit adaptive optical wave front processor[J]. *Optics and Precision Engineering*, 2018, **26**(5): 1007-1013.

[8] Avinash Surendran, Mahesh P Burse, Ramaprakash A N, et al. Scalable platform for adaptive optics real-time control (SPARC) part
2: field programmable gate array (FPGA) implementation and performance[J]. *Journal of Astronomical Telescopes, Instruments, and Systems*, 2018, 4(3): 039002.